Перевод: с французского на английский

с английского на французский

numérisation en mode texte

  • 1 numérisation en mode texte

       Deux méthodes sont possibles pour numériser un livre en mode texte. On peut saisir le livre de bout en bout sur le clavier de son ordinateur. On peut aussi scanner le livre page après page, ce qui donne des fichiers numérisés en mode image, puis on utilise un logiciel OCR (optical character recognition), qui permet de convertir chaque fichier image en fichier texte. Il est ensuite préférable de relire le contenu du fichier texte au regard de l’original (image scannée ou livre imprimé) en corrigeant les erreurs (dix erreurs par page en moyenne lorsque le logiciel OCR est de qualité). Dans l’un comme l’autre cas (saisie ou scannage + OCR), le texte numérisé apparaît en continu à l’écran, et la présentation de la page originale n’est pas conservée. A cause du temps passé au traitement de chaque livre, la numérisation en mode texte est assez longue. Elle est toutefois très préférable à la numérisation en mode image, puisqu’elle permet l’indexation, la recherche plein texte, l’analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C’est la méthode utilisée par exemple par le Projet Gutenberg, la grande bibliothèque mondiale au format texte fondée en 1971. Le format de fichier obtenu est le format TXT, et l’extension du fichier est ".txt".

    Le Dictionnaire du NEF > numérisation en mode texte

  • 2 numérisation en mode image

       Contrairement à la numérisation en mode texte, qui propose le texte d’un livre en continu, la numérisation en mode image correspond à la photographie du livre. La version informatique est le fac-similé numérique de la version imprimée. La présentation originale étant conservée, on peut feuilleter le texte page après page à l’écran. C’est la méthode employée pour les numérisations à grande échelle, par exemple pour la constitution de Gallica, la bibliothèque numérique de la Bibliothèque nationale de France (BnF). Dans le cas de Gallica, pour faciliter la recherche textuelle, les tables des matières, les sommaires et les légendes des corpus iconographiques sont numérisés en mode texte.

    Le Dictionnaire du NEF > numérisation en mode image

  • 3 numérisation

       La numérisation est la codification d’informations (textes, images, sons) en langage généralement binaire (0 ou 1) pour permettre leur traitement par voie informatique. La numérisation permet la création, l’enregistrement, la combinaison, le stockage, la recherche et la transmission de documents de manière simple et rapide. Des procédés similaires permettent le traitement du texte, du son et de l’image alors que, par le passé, ce traitement était assuré par des procédés différents et sur des supports différents (le papier pour l’écriture, la bande magnétique pour la musique, le celluloïd pour le cinéma). En ce qui concerne les livres, la numérisation peut être effectuée soit en mode texte, soit en mode image.

    Le Dictionnaire du NEF > numérisation

  • 4 texte électronique

       Un texte électronique peut être produit directement sous forme numérique ou alors numérisé à partir d’un document imprimé. Le format de base est le format TXT (text, défini par l’extension de fichier ".txt") qui, s’il n’est pas toujours très attractif pour le lecteur (pas de paramétrage), a l’avantage d’être lisible sur tout type de machine, plateforme et logiciel. Le texte électronique a plusieurs qualités essentielles: un fichier peu volumineux, un stockage facile et une transmission rapide via l’internet.

    Le Dictionnaire du NEF > texte électronique

  • 5 Gallica

       Mise en ligne en octobre 1997, Gallica est la bibliothèque numérique de la Bibliothèque nationale de France (BnF). En accès libre, elle devient rapidement l’une des plus importantes bibliothèques numériques du réseau. On y trouve les documents libres de droits du fonds numérisé de la BnF, à savoir, en février 2005, 76.000 ouvrages et 80.000 images du Moyen-Age au début du 20e siècle, avec un million de consultations par mois. Pour des raisons de coût, les documents sont essentiellement numérisés en mode image. Une petite collection de livres (1.117 titres en février 2004) est numérisée en mode texte. En février 2005, Gallica annonce la mise en ligne prochaine (entre 2006 et 2009) de l’essentiel de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages. Début 2006, les premiers journaux disponibles en ligne sont Le Figaro (naissance en 1826), La Croix (naissance en 1883), L’Humanité (naissance en 1904) et Le Temps (naissance en 1861 et disparition en 1942). En décembre 2006, les collections comprennent 90.000 ouvrages numérisés (fascicules de presse compris), 80.000 images et des dizaines d’heures de ressources sonores.

    Le Dictionnaire du NEF > Gallica

  • 6 Hart, Michael

       Alors qu’il est étudiant à l’Université d’Illinois (Etats-Unis), Michael Hart crée en juillet 1971 le Projet Gutenberg pour diffuser gratuitement par voie électronique le plus grand nombre possible d’oeuvres du domaine public. Au milieu des années 1990, lorsque l’utilisation du web se généralise, le Projet Gutenberg trouve un second souffle et un rayonnement international. Michael Hart décide d’y consacrer sa vie et de coordonner le travail de centaines de volontaires qui numérisent patiemment les oeuvres en mode texte dans de nombreux pays. D’abord essentiellement anglophones, les collections deviennent peu à peu multilingues. La plus ancienne bibliothèque numérique sur l’internet franchit la barre des 5.000 livres en avril 2002, des 10.000 livres en octobre 2003, des 15.000 livres en janvier 2005 et des 20.000 livres en décembre 2006, avec des milliers de volontaires dans le monde entier. Michael Hart espère franchir la barre du million de livres d’ici 2015. Michael Hart est aussi l’auteur d’un blog (Online Writings) dans lequel il développe ses idées.

    Le Dictionnaire du NEF > Hart, Michael

  • 7 Projet Gutenberg

       En juillet 1971, Michael Hart crée le Projet Gutenberg pour diffuser gratuitement sous forme électronique les oeuvres littéraires du domaine public. Un projet longtemps considéré par ses détracteurs comme impossible à grande échelle. Site pionnier à tous égards, le Projet Gutenberg est à la fois le premier site d’information sur un réseau encore embryonnaire et la première bibliothèque numérique. Les livres sont numérisés en mode texte (TXT) en utilisant le code ASCII (American standard code for information interchange). Lorsque l’utilisation du web se généralise, au milieu des années 1990, le projet trouve un second souffle et un rayonnement international. Les collections atteignent 1.000 livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre 2000, 4.000 livres en octobre 2001, 5.000 livres en avril 2002, 10.000 livres en octobre 2003, 15.000 livres en janvier 2005 et 20.000 livres en décembre 2006, dans 50 langues, avec 360 nouveaux livres par mois, 38 sites miroirs dans de nombreux pays et plusieurs dizaines de milliers de téléchargements par jour. En octobre 2001, la principale source des livres devient Distributed Proofreaders, créé par Charles Franks pour gérer la correction partagée entre volontaires. Michael Hart espère franchir la barre du million de livres d’ici 2015. D’abord essentiellement anglophones, les collections deviennent peu à peu multilingues et le Projet Gutenberg s’internationalise. Le Projet Gutenberg Europe est lancé en janvier 2004 par le Projet Rastko, basé à Belgrade, en Serbie.

    Le Dictionnaire du NEF > Projet Gutenberg

  • 8 TXT

    (text)
       TXT (du terme anglais "text") désigne le format texte, dont l’extension de fichier est ".txt". Ce format est le format de fichier le plus ancien, utilisé dès les débuts de l’informatique. Encodé en ASCII (American standard code for information interchange), le fichier correspondant est lisible sur toute machine, plateforme et logiciel. Ce format ne permet pas de paramétrer le texte (marges, caractères gras, soulignés ou en italique, taille et police des caractères, etc.). Les éléments importants (titres, têtes de chapitres et de sections, etc.) sont souvent mentionnés en lettres capitales. Le Projet Gutenberg par exemple, pionnier des bibliothèques numériques, diffuse des milliers d’oeuvres du domaine public au format texte, pour que celles-ci puissent être lues par tous sans problème de compatibilité. Les avantages du format texte sont sans fin. Contrairement à d’autres formats, le téléchargement d’un livre au format texte ne requiert pas de bande passante large. Un livre au format texte peut être copié à l’infini et constituer ainsi la base de dizaines de nouvelles versions numériques et imprimées. On peut corriger à tout moment les fautes d’orthographe et de grammaire et les erreurs de typographie. Le lecteur peut changer à volonté la taille et la police des caractères, les marges et le nombre de lignes par page. Les personnes malvoyantes peuvent grossir la taille des polices et changer le fonds d’écran, et les personnes aveugles utiliser un logiciel de reconnaissance vocale. Tout ceci est beaucoup plus difficile, sinon impossible, avec nombre d’autres formats. Dans une moindre mesure, le format HTML (hypertext markup language), destiné au web, et le format RTF (rich text format), destiné à l’échange de fichiers, sont également lisibles sur sur de nombreuses plateformes.

    Le Dictionnaire du NEF > TXT

  • 9 Bibliothèque électronique de Lisieux (La)

       La Bibliothèque électronique de Lisieux est l’une des premières bibliothèques francophones du réseau. Elle est créée en juin 1996 par Olivier Bogros, directeur de la médiathèque municipale de Lisieux (Normandie), qui l’héberge pendant deux ans sur les pages de son compte personnel CompuServe. En juin 1998, il enregistre un nom de domaine (www.bmlisieux.com) et déménage l’ensemble sur un serveur offrant une capacité de stockage de 30 Mo (mégaoctets). En juillet 1999, la bibliothèque électronique comprend 370 textes courts, numérisés en mode texte à partir des collections de la médiathèque. On y trouve des oeuvres littéraires, des brochures et des opuscules documentaires, ainsi que des manuscrits, livres et brochures sur la Normandie. En juillet 2000, on compte 466 textes de 120 auteurs. En février 2004, les collections approchent les 700 textes. En décembre 2006, les collections comprennent 930 oeuvres et 20 galeries d’images (ce qui représente 327,1 Mo avec une capacité de stockage de 600 Mo). Créé en août 2000 sur le site de l’Université de Toronto, LexoTor est une base de données fonctionnant avec le logiciel TACTweb (TACT: text analysis computing tools) et permettant l’interrogation en ligne des oeuvres de la bibliothèque, ainsi que des analyses et des comparaisons textuelles.

    Le Dictionnaire du NEF > Bibliothèque électronique de Lisieux (La)

  • 10 Bogros, Olivier

       Olivier Bogros est directeur de la Médiathèque municipale de Lisieux (Normandie). En juin 1996, il crée la Bibliothèque électronique de Lisieux, une des premières bibliothèques francophones du réseau. Il l’héberge d’abord pendant deux ans sur les pages de son compte personnel CompuServe. En juin 1998, il enregistre un nom de domaine (www.bmlisieux.com) et déménage l’ensemble sur un serveur offrant une capacité de stockage de 30 Mo (mégaoctets). Cette bibliothèque numérique est spécialisée dans les textes courts (nouvelles, brochures et articles), qui sont numérisés en mode texte à partir des collections de la médiathèque, avec 700 textes en février 2004 et 930 textes en décembre 2006, ainsi que 20 galeries d’images. A titre personnel, Olivier Bogros est aussi l’auteur de Miscellanées, "une bibliothèque hétéroclite" présentant des nouvelles, textes, poèmes et chansons choisis par ses soins, avec mise à jour au minimum mensuelle. Miscellanées comprend 120 documents en février 2004 et 175 documents en décembre 2006.
       Voir aussi: Bibliothèque électronique de Lisieux, bibliothèque numérique, Miscellanées, numérisation, numérisation en mode texte.

    Le Dictionnaire du NEF > Bogros, Olivier

  • 11 Distributed Proofreaders

    (DP)
       Conçu en octobre 2000 par Charles Franks pour contribuer à la numérisation des livres du domaine public, Distributed Proofreaders (DP) est mis en ligne en mars 2001. Le concept est de permettre la correction partagée en fragmentant les livres en pages pouvant être relues par des correcteurs différents. Destiné à intensifier la production de livres pour le Projet Gutenberg, grande bibliothèque numérique mondiale au format texte, Distributed Proofreaders en devient rapidement la principale source. Il est officiellement affilié au Projet Gutenberg en 2002. La progression est rapide. En 2003, une moyenne de 250 à 300 relecteurs travaillant quotidiennement permet de produire entre 2.500 et 3.000 pages par jour, ce qui représente deux pages par minute. En 2004, la moyenne était de 300 à 400 relecteurs quotidiens produisant entre 4.000 et 7.000 pages par jour, à savoir quatre pages par minute. Distributed Proofreaders comptabilise un total de 3.000 livres en février 2004, 5.000 livres en octobre 2004, 7.000 livres en mai 2005, 8.000 livres en février 2006 et 10.000 livres en mars 2007. 700 volontaires se connectent chaque jour et 3.000 volontaires se connectent chaque mois. Les volontaires n’ont aucun quota à respecter. A titre indicatif, il est suggéré de relire une page par jour. Cela semble peu, mais une page multipliée par des milliers de volontaires représente un chiffre considérable. En janvier 2004 est lancé en parallèle Distributed Proofreaders Europe (DP Europe) pour alimenter le site du Projet Gutenberg Europe.

    Le Dictionnaire du NEF > Distributed Proofreaders

  • 12 Miscellanées

       Miscellanées est “une bibliothèque hétéroclite” créée à titre personnel par Olivier Bogros, directeur de la Médiathèque municipale de Lisieux (Normandie) et fondateur en juin 1996 de la Bibliothèque électronique de Lisieux, une des premières bibliothèques francophones du réseau. Consacrée aux textes courts (nouvelles, poèmes et chansons), Miscellanées est conçue dès novembre 2000 (saisie de quelques textes) et mise en ligne en avril 2001. Elle s’enrichit de deux documents par mois en moyenne. On y trouve 120 textes en février 2004 et 175 textes en décembre 2006. Miscellanées fait partie du réseau du Net des études françaises (NEF).
       Voir aussi: Bibliothèque électronique de Lisieux, bibliothèque numérique, Bogros, Olivier, Net des études françaises, numérisation en mode texte.

    Le Dictionnaire du NEF > Miscellanées

  • 13 OCR

    (optical character recognition)
       La reconnaissance optique de caractères (OCR: optical character recognition, même sigle en français et en anglais) est une technologie permettant de convertir en fichier texte un fichier numérisé en mode image. Cette conversion permet d’alléger le poids du fichier, de corriger le texte si utile et d’effectuer des recherches textuelles. En quoi consiste exactement la numérisation d’un livre en utilisant un logiciel OCR? Il consiste à scanner le livre page après page, ce qui donne des fichiers numérisés en mode image, puis à utiliser un logiciel OCR, qui permet de convertir chaque fichier "image" en un fichier texte. Il consiste ensuite à relire le contenu du fichier texte au regard de l’original (image scannée ou livre imprimé) en corrigeant les erreurs (dix erreurs par page en moyenne quand le logiciel OCR est de qualité). Deux logiciels OCR commerciaux sont les logiciels OmniPage et TextBridge de la société Nuance.

    Le Dictionnaire du NEF > OCR

  • 14 bibliothèque

       Les bibliothèques traditionnelles (bibliothèques nationales, bibliothèques publiques, bibliothèques privées, bibliothèques spécialisées, etc.) sont présentes sur l’internet par le biais d’un site web, d’un catalogue en ligne et d’une bibliothèque numérique, ce qui rend obsolètes les problèmes de communication du passé. Si la bibliothèque numérique se développe dès 1994, la mise en ligne de vastes collections ne débute que plus tard, en 1997 et 1998, le temps de numériser les fonds et de mettre au point la technologie nécessaire. Les documents sont numérisés en mode texte ou en mode image. D’autres bibliothèques numériques n’émanent pas d’une bibliothèque traditionnelle. Elles sont nées sur l’internet, comme le Projet Gutenberg, la grande bibliothèque mondiale de livres du domaine public au format texte.

    Le Dictionnaire du NEF > bibliothèque

См. также в других словарях:

  • Numérisation de Documents Anciens Mathématiques — NUMDAM, abréviation de NUMérisation de Documents Anciens Mathématiques est une archive consacrée à la publication sur réseau de documents mathématiques numérisés en mode image : revues, actes de conférences, recueils de séminaires. Ce… …   Wikipédia en Français

  • Numérisation de documents anciens mathématiques — NUMDAM, abréviation de NUMérisation de Documents Anciens Mathématiques est une archive consacrée à la publication sur réseau de documents mathématiques numérisés en mode image : revues, actes de conférences, recueils de séminaires. Ce… …   Wikipédia en Français

  • ÉDITION ÉLECTRONIQUE — Pendant près de cinq siècles notre culture de l’écrit a été façonnée par les techniques et les usages de l’imprimé. Cette période s’achève aujourd’hui avec l’avènement de l’édition électronique. En passant du papier au numérique, le texte ne… …   Encyclopédie Universelle

  • Le Journal des chemins de fer — Journal des chemins de fer Pays France Langue français Périodicité hebdomadaire Genre ferroviaire …   Wikipédia en Français

  • Chartes bourguignonnes — Région à la fois riche et disputée, la Bourgogne a donné lieu à de nombreuses chartes au Moyen Âge. De nos jours, les paléographes s attachent à les réunir et à les étudier. Sommaire 1 Le programme d études Chartae Burgundiae Medii Aevi 1.1… …   Wikipédia en Français

  • Édition électronique — L édition électronique est une édition qui s appuie sur le réseau pour sa diffusion et, parfois, sa construction même. Elle est composée de trois grandes familles : la numérisation (par exemple Google livres), l édition numérique (la mise en …   Wikipédia en Français

  • Gallica — URL http://gallica.bnf.fr/ Commercial non Type de site Bibliothèque num …   Wikipédia en Français

  • Galica — Gallica Actuel logo de Gallica Gallica est la bibliothèque numérique de la Bibliothèque nationale de France. Elle regroupe des livres numérisés, des cartulaires, des revues, des photos et une collection d enluminures. Au… …   Wikipédia en Français

  • Gallica 2 — Gallica Actuel logo de Gallica Gallica est la bibliothèque numérique de la Bibliothèque nationale de France. Elle regroupe des livres numérisés, des cartulaires, des revues, des photos et une collection d enluminures. Au… …   Wikipédia en Français

  • WikiSource — est un projet multilingue de bibliothèque numérique, soutenu par la fondation Wikimedia, libre d accès, sans publicité, librement distribuable, édifiée par des bénévoles qui s appuient sur la technologie wiki. Le projet a été lancé le 23 novembre …   Wikipédia en Français

  • Wikisource — Le logo de Wikisource depuis mai 2006. Wikisource est un projet multilingue de bibliothèque numérique, soutenu par la Fondation Wikimedia, libre d accès, sans publicité, librement distribuable, édifiée par des bénévoles qui s appuient sur la… …   Wikipédia en Français

Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»